【arXiv】Masked-attention Mask Transformer for Universal Image Segmentation
Masked-attention Mask Transformer for Universal Image Segmentation
分享人:张健
研究方向:异常检测
论文题目:Masked-attention Mask Transformer for Universal Image Segmentation
论文作者:Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar
作者单位:脸书人工智能实验室;伊利诺伊大学厄巴纳-香槟分校
论文摘要:图像分割是用不同的语义将像素分组,例如,类别或实例成员,其中每种语义的选择定义了一种任务。虽然每种任务只是语义不同,但目前的研究侧重于为每个任务设计专门的架构。我们提出了一种新的架构——掩模注意力的掩模Transformer (Mask2Former),它能够处理任何图像分割任务(全景、实例或语义)。该算法的关键组成部分包括掩模注意力,通过约束掩模预测区域内的交叉注意力来提取局部特征。除了减少至少三倍的研究工作外,它在四个流行的数据集上的性能显著优于最好的专用架构。最值得注意的是,Mask2Former 在全景分割(COCO 上的 57.8 PQ)、实例分割(COCO 上的 50.1 AP)和语义分割(ADE20K 上的 57.7 mIoU)上达到了最优的性能。
原文链接: